36 research outputs found

    DH-PTAM: A Deep Hybrid Stereo Events-Frames Parallel Tracking And Mapping System

    Full text link
    This paper presents a robust approach for a visual parallel tracking and mapping (PTAM) system that excels in challenging environments. Our proposed method combines the strengths of heterogeneous multi-modal visual sensors, including stereo event-based and frame-based sensors, in a unified reference frame through a novel spatio-temporal synchronization of stereo visual frames and stereo event streams. We employ deep learning-based feature extraction and description for estimation to enhance robustness further. We also introduce an end-to-end parallel tracking and mapping optimization layer complemented by a simple loop-closure algorithm for efficient SLAM behavior. Through comprehensive experiments on both small-scale and large-scale real-world sequences of VECtor and TUM-VIE benchmarks, our proposed method (DH-PTAM) demonstrates superior performance compared to state-of-the-art methods in terms of robustness and accuracy in adverse conditions. Our implementation's research-based Python API is publicly available on GitHub for further research and development: https://github.com/AbanobSoliman/DH-PTAM.Comment: Submitted for publication in IEEE RA-

    SWIR Camera-Based Localization and Mapping in Challenging Environments

    Get PDF
    International audienceThis paper assesses a monocular localization system for complex scenes. The system is carried by a moving agent in a complex environment (smoke, darkness, indoor-outdoor transitions). We show howusing a short-wave infrared camera (SWIR) with a potential lightingsource is a good compromise that allows to make just a slight adaptationof classical simultaneous localization and mapping (SLAM) techniques.This choice made it possible to obtain relevant features from SWIR images and also to limit tracking failures due to the lack of key points insuch challenging environments. In addition, we propose a tracking failure recovery strategy in order to allow tracking re-initialization with orwithout the use of other sensors. Our localization system is validatedusing real datasets generated from a moving SWIR-camera in indoor environment. Obtained results are promising, and lead us to consider theintegration of our mono-SLAM in a complete localization chain includinga data fusion process from several sensors

    Efficient Industrial Solution for Robotic Task Sequencing Problem With Mutual Collision Avoidance & Cycle Time Optimization

    Get PDF
    © 2022 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other worksIn the automotive industry, several robots are required to simultaneously carry out welding sequences on the same vehicle. Coordinating and assigning welding points between robots is a manual and difficult phase that needs to be optimized using automatic tools. The cycle time of the cell strongly depends on different robotic factors such as the task allocation among the robots, the configuration solutions and obstacle avoidance. Moreover, a key aspect, often neglected in the state of the art, is to define a strategy to solve the robotic task sequencing with an effective robot-robot collision avoidance integration. In this paper, we present an efficient iterative algorithm that generates a high-quality solution for Multi-Robotic Task Sequencing Problem. This latter manages not only the mentioned robotic factors but also aspects related to accessibility constraints and mutual collision avoidance. In addition, a home-developed planner ( RoboTSPlanner ) handling 6 axis has been validated in a real case scenario. In order to ensure the completeness of the proposed methodology, we perform an optimization in the task, configuration and coordination space in a synergistic way. Comparing to the existing approaches, both simulation and real experiments reveal positive results in terms of cycle time and show the ability of this method to be interfaced with both industrial simulation software and ROS-I tools.Peer ReviewedPostprint (published version

    Real-Time Multi-SLAM System for Agent Localization and 3D Mapping in Dynamic Scenarios

    Get PDF
    International audienceThis paper introduces a Wearable SLAM system that performs indoor and outdoor SLAM in real time. The related project is part of the MALIN challenge which aims at creating a system to track emergency response agents in complex scenarios (such as dark environments, smoked rooms, repetitive patterns, building floor transitions and doorway crossing problems), where GPS technology is insufficient or inoperative. The proposed system fuses different SLAM technologies to compensate the lack of robustness of each, while estimating the pose individually. LiDAR and visual SLAM are fused with an inertial sensor in such a way that the system is able to maintain GPS coordinates that are sent via radio to a ground station, for real-time tracking. More specifically, LiDAR and monocular vision technologies are tested in dynamic scenarios where the main advantages of each have been evaluated and compared. Finally, 3D reconstruction up to three levels of details is performed

    Vision "fruste" revisitée : contribution à la vision dynamique des systèmes

    No full text
    Les travaux présentés dans le cadre de cette habilitation à diriger des recherches portent essentiellement sur l'analyse de scènes à partir de caméras mobiles avec pour application immédiate l'apport d'une vision par ordinateur efficace dans les systèmes d'aide à la conduite. L'idée initiale est que l'autonomie d'un système implique, ne serait-ce que pour raisons énergétiques, une faible variété d'opérateurs de perception, dont les algorithmes de vision. Les "primitives" extraites des images seront intrinsèquement robustes et stables vis-à-vis de perturbations variées. Elles doivent de plus anticiper, voire faciliter, un processus de décision à divers niveaux voulu systématique. Les lignes de niveaux répondent parfaitement à ces contraintes : on vérifie sans peine leur robustesse et leur abondance dans une image suggère et alimente un processus de décision cumulatif (manipulant un objet unique : l'histogramme). Nos efforts se sont alors concentrés sur deux aspects : 1) le premier concerne la définition d'une méthodologie cohérente dans laquelle un processus primaire d'extraction de lignes de niveaux est enrichi afin de permettre la construction de primitives plus complexes guidée par le modèle de déformation de l'image. Le nombre de composants donc la forme des primitives est fonction directe du nombre de variables caractérisant le mouvement (déformation) à déterminer. 2) Le second intéresse une méthode de décision cumulative unifiée permettant de traiter des thèmes applicatifs de complexité croissante. Nos travaux se déclinent alors en trois niveaux de cumul, chacun associé de manière réconfortante à un stade de l'analyse d'images. 1) Au plus bas niveau, nous retenons l'information binaire apparition/disparition d'une primitive dans le temps. La complexité se situe strictement sur l'axe temporel. Le cumul dans le temps nous permet ainsi de reconstruire la scène fixe et donc par soustraction du fond, l'image des objets mobiles. Les espaces de vote sont 1D et multiples, affectés à chaque primitive. 2) Le consensus se voudrait spatio-temporel au deuxième niveau pour identifier le mouvement. Il restera d'abord spatial en pratique pour raisons de complexité : des primitives voisines dans l'image s'associent pour former des "pré-objets" contraints exhibant ainsi des invariants exploitables : leur mouvement à instancier doit être cohérent. Le cumul s'opère donc cette fois selon un modèle de mouvement de la caméra. Les primitives votent pour la transformation globale qui les aurait conduites dans leur nouvelle position. L'espace de vote est commun à toutes les primitives et multidimensionnel (une dimension par paramètre de mouvement). 3) Au niveau le plus élevé, la sémantique accrue implique des hypothèses à la fois sur les primitives et sur l'origine du mouvement. Les primitives sont supposées appartenir à un même objet 3D (ex. un plan) présentant, pour un modèle de déplacement du capteur donné, une propriété caractéristique commune des vecteurs vitesse qui permet de l'extraire. Notamment, leurs amplitudes sont constantes le long de courbes image prédéfinies par leurs équations analytiques. Les primitives ne votent plus selon leur structure mais selon leur vitesse. Dans le cas d'une scène 3D approximée par un ensemble de plans et d'une caméra à mouvement majoritairement longitudinal, l'espace de vote (c-velocité) présente 2 dimensions : une pour la vitesse, l'autre pour le paramètre des courbes iso-vitesse. Chaque vitesse vote sur sa courbe. Les surfaces 3D émergent dans cet espace de vote comme courbes 2D connues (droites ou paraboles). Les thèmes applicatifs traités pour illustrer notre démarche sont de complexité croissante : détection et estimation du mouvement en caméra fixe, recalage d'images en caméra mobile (type de mouvement connu et profondeur des objets contrainte) puis estimation générale du mouvement propre et de la structure de la scène en caméras embarquées sur un véhicule mobile. Les résultats obtenus montrent comment un choix de primitives robustes associé à un processus de décision cumulatif permet la réutilisation des opérateurs dans tous les secteurs. Les systèmes proposés ont la particularité d'être compacts et cohérents, propriété recherchée dans les applications considérées

    Décision cumulative pour la vision dynamique des systèmes

    No full text
    National audienc

    Voting spaces cooperation for 3D plane detection from monocular image sequences

    No full text
    International audienc

    Driving space detection by combining V-disparity and C-velocity

    No full text
    International audienceThis paper deals with road plane detection by image analysis in the context of automatic driver assistance systems. In this context, free navigable space detection is a very important step for any navigation and obstacle detection system. We propose a low-level combination of two main visual processes: stereovision and motion. We define a common representation that allows simple projections of stereo information to easy-interpretable features in a motion space. We chose to combine two robust cumulative techniques: the stereo-based approach V-disparity and the motion-based approach C-velocity. The combination requires the definition of a common formalism. Results on synthetic image sequences and on KITTI database images reveal that our approach is more efficient than a higher level combination method. We show that it is possible, using no prior knowledge nor any calibration, to improve detection by a low cost method that exploits only image processing and a very simple stereo and motion combination
    corecore